matplotlib : 使用pandas 和 seaborn 绘图(折线图,柱状图) |
您所在的位置:网站首页 › python dataframe绘制折线图 › matplotlib : 使用pandas 和 seaborn 绘图(折线图,柱状图) |
使用pandas 和 seaborn 绘图
matplotlib 是一个相当底层的工具,你可以从其基本组件中组装一个图标:数据显示(绘图类型:线,框,散点图等),图例,标题,刻度标记和其他注释。 在pandas 中我们可能有很多个数据列,带有行和列的标签,自身有很多内建方法可用简化从datafrae 和 sereis 对象生成可视化的过程。 里一个库 seaborn 简化了很多常用可视化类型的生成。 导入seaborn 会修改默认的 matplotlib 配色方案和绘图样式,提高可读性和美观性。 2.1 折线图series 和 dataframe 都有一个 plot 属性,用于基本获得绘图,默认时折线图
plot.bar() and plot.barh() 可以分别绘制垂直和水平的柱状图,series or dataframe 的索引会用作x轴刻度(bar) 或 y 轴刻度(barh) 在 dataframe 中,柱状图将每一行中的值分组到并排的柱子中的一组,另外,列名称会用作图例标题。 使用 s.value_counts().plot.bar() 可以有效的对 series 值频率进行可视化 现在我们使用数据集,绘制一个堆积柱状图来展示每个排队在每天的数据点占比。。。根据星期日期和排队规模形成交叉表 tips=pd.read_csv('tips.csv',sep='\t') party_counts=pd.crosstab(tips['day'],tips['size']) # crosstab 交叉表以后会看到的 party_counts size 1 2 3 4 5 6 day Fri 1 16 1 1 0 0 Sat 2 53 18 13 1 0 Sun 0 39 15 18 3 1 Thur 1 48 4 5 1 3 party_counts=party_counts.loc[:,2:5] # 1 和 6 排除掉,太少了 party_pcts=party_counts.div(party_counts.sum(1),axis=0) # 就是算一下所占的百分比 party_pcts size 2 3 4 5 # 这里就是广播机制,, day # https://blog.csdn.net/weixin_46192930/article/details/106451745 Fri 0.888889 0.055556 0.055556 0.000000 Sat 0.623529 0.211765 0.152941 0.011765 Sun 0.520000 0.200000 0.240000 0.040000 Thur 0.827586 0.068966 0.086207 0.017241 party_pcts.plot.bar()
对于在绘图前需要聚合或汇总数据,使用seaborn 会使工作更加简单,使用seaborn 进行按星期日期计算小费百分比 Seaborn是基于matplotlib的图形可视化python包。它提供了一种高度交互式界面,便于用户能够做出各种有吸引力的统计图表。 Seaborn是在matplotlib的基础上进行了更高级的API封装,从而使得作图更加容易,在大多数情况下使用seaborn能做出很具有吸引力的图,而使用matplotlib就能制作具有更多特色的图。应该把Seaborn视为matplotlib的补充,而不是替代物。同时它能高度兼容numpy与pandas数据结构以及scipy与statsmodels等统计模式。 作者:留心的话没有小事 链接:https://www.jianshu.com/p/94931255aede 来源:简书 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 import seaborn as sns tips['tip_pct']=tips['tip'] / (tips['total_bill']-tips['tip']) # 小费/(总消费-小费) tips.head() total_bill tip smoker day time size tip_pct 0 16.99 1.01 No Sun Dinner 2 0.063204 1 10.34 1.66 No Sun Dinner 3 0.191244 2 21.01 3.50 No Sun Dinner 3 0.199886 3 23.68 3.31 No Sun Dinner 2 0.162494 4 24.59 3.61 No Sun Dinner 4 0.172069
置信区间是指由样本统计量所构造的总体参数的估计区间。在统计学中,一个概率样本的置信区间(Confidence interval)是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度,其给出的是被测量参数的测量值的可信程度,即前面所要求的“一个概率”。 [1] sarborn.barplot 有一个 hue 选项,可以通过一个额外的分类值将数据分离。
|
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |